Kaggle是一個數據建模和數據分析競賽平台。企業和研究者可在上面發布數據,統計學者和數據挖掘專家在上面進行競賽以產生最好的模型。Kaggle 還有一個很棒的地方是他們設有datasets專區,也就是說它裡面有許多的資料,對資料分析或機器學習有興趣的朋友,Kaggle一定是個很好挖寶的地方,而裡面的資料集都已經透過整理並且提供下載,是一個非常好的開源資料集,有些研究員或是資料學家會在資料集下分享自己的研究成果,讓我們學習起來更有方向。
登入kaggle > myaccount >create new api token
這一步是為了下載需要的kaggle.json檔案
在google colab 輸入以下指令,並可以選擇剛剛你下載的json檔
! pip install -q kaggle
from google.colab import files
files.upload()
輸入下列指令
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
我以我要的資料集House sales in king country為例,點開New notebook旁的索引,有個copy api command,並可以複製
回google colab把貼上剛剛複製的,然後在它的前面加上!,這樣會下載一個壓縮檔。
!kaggle datasets download -d 'harlfoxem/housesalesprediction'
建立一個資料夾,之後再把解壓縮的檔案放進去,這樣環境比較不會混亂。
! mkdir housesalesprediction
! unzip housesalesprediction.zip -d housesalesprediction
接下來就可以用**read_csv()**把剛才的資料讀取出來
import pandas as pd
import numpy as np
data = pd.read_csv('housesalesprediction/kc_house_data.csv')
因為這次的資料我選擇的是House sales in king country,所以有些單引號的檔案名可能會因為你選取的資料不同而改變這個大家要注意一下,那接下來就可以對資料進行分析。